完成数据仓库的规划和数据源信息的配置后,您还需将您的源数据product表、customer表、orders表引入到项目中。本文将指导您如何将数据源的数据集成到您的创建的项目空间。
背景信息
product表、customer表、orders表的集成步骤相同,仅管道名称不同。本文以集成product表为例介绍如何将product表集成至项目。
完成product表集成后,您还需参考本文集成customer表、orders表至项目。
步骤一:创建管道开发脚本
在Dataphin首页的顶部菜单栏中,选择研发 > 数据集成。
在顶部菜单栏中选择项目(Prod-Dev模式还需选择环境)。
在左侧导航栏中选择集成 > 离线集成。在右侧离线集成列表中单击图标,选择离线管道。
在创建离线管道对话框中,配置参数。
参数
描述
管道名称
输入产品表集成。
调度类型
选择周期性节点。
描述(非必填)
可以填写对离线单条管道的简单描述。
选择目录(非必选)
默认目录为离线管道。
单击确定,完成创建离线管道。
离线管道参数配置详情请参见通过单条管道创建集成任务。
步骤二:开发离线管道脚本
在离线单条管道开发页面,单击组件库。
在输入组件中选择MySQL输入组件,并将其拖动至管道画布中。
在输出组件中选择MaxCompute输出组件,并将其拖动至管道画布中。
连接MySQL输入组件和MaxCompute输出组件。
分别单击输入和输出组件的图标,配置MySQL输入组件和MaxCompute输出组件。
MySQL输入组件
参数
描述
步骤名称
使用默认值。
数据源
选择步骤二中已创建的数据源:dataphin_tutorial。
来源表量
选择单表。
表
选择来源表product。
切分键(非必选)
无需添加切分键。
输入过滤(非必填)
无需添加过滤条件。
输出字段
使用默认输出字段。
MaxCompute输出组件
参数
描述
步骤名称
使用默认名称。
数据源
选择项目 > dataphin_tutorial(dataphin_tutorial),即当前项目。
表
创建目标表:
单击一键生成目标表。
在代码输入框中,使用默认建表语句,无需修改。
单击新建。
加载策略
选择追加数据。
映射关系
在映射关系中选择同名映射。
单击确定,完成输入和输出组件的配置。
输入输出组件的参数配置详情请参见配置MySQL输入组件、配置MaxCompute输出组件。
步骤三:配置管道脚本的调度参数
单击当前离线管道开发画布菜单栏中的调度配置按钮,进行调度配置。
在调度依赖区域,配置上游依赖,其他区域参数保持默认。
在上游依赖区域中,单击添加根节点,作为当前任务的上游依赖。
离线集成任务属性配置详情请参见配置离线管道任务属性。
步骤四:提交和发布离线单条管道脚本
单击当前离线管道开发画布菜单栏中的提交图标,提交管道脚本。
在对话框中查看提交内容和前置检查信息,并输入提交备注。
单击确定并提交。
提交时,Dataphin将进行任务的血缘解析及提交检查。更多信息,请参见集成任务提交说明。